FILTER MODE ACTIVE

#распознавание речи

Найдено записей: 13

#распознавание речи07.01.2026

NVIDIA представила Nemotron ASR для низкой задержки

Изучите новую модель Nemotron Speech ASR от NVIDIA, разработанную для голосовых агентов и живой субтитровки с низкой задержкой.

ЧИТАТЬ →

#распознавание речи09.11.2025

Создание агентного голосового ИИ, который понимает, планирует и говорит автономно

'Руководство по сборке голосового ИИ, который понимает, планирует и отвечает голосом в реальном времени.'

ЧИТАТЬ →

#распознавание речи10.09.2025

Улучшение речи и ASR с помощью SpeechBrain: сборка пайплайна для денойзинга и распознавания в Python

Практическое руководство по сборке пайплайна с SpeechBrain: генерация речи, добавление шума, улучшение с MetricGAN+ и сравнение WER до и после обработки

ЧИТАТЬ →

#распознавание речи09.09.2025

Qwen3-ASR Flash: единая модель Alibaba для многоязычного и шумоустойчивого распознавания речи

'Qwen3-ASR Flash — единая модель Alibaba для автоматического распознавания речи на 11 языках, поддерживающая вставку контекста и показывающая WER ниже 8% в шумных и музыкальных условиях.'

ЧИТАТЬ →

#распознавание речи04.09.2025

OLMoASR: открытая ASR-платформа AI2, которая бросает вызов Whisper

'AI2 представил OLMoASR — открытую систему распознавания речи с моделями, набором данных и рецептами обучения, сопоставимую по качеству с OpenAI Whisper.'

ЧИТАТЬ →

#распознавание речи30.08.2025

Voice AI 2025: 20 обязательных блогов и новостных сайтов для подписки

'Краткий гид по 20 ключевым блогам и новостным сайтам о голосовом ИИ в 2025 году — источники для разработчиков, исследователей и менеджеров продуктов.'

ЧИТАТЬ →

#распознавание речи29.08.2025

OpenAI представила GPT-Realtime: единая речевая модель с поддержкой SIP и MCP

'OpenAI вывела Realtime API из беты с GPT-Realtime, единым аудиопайплайном, поддержкой SIP и MCP, улучшив производительность и возможности для бизнеса, но оставив проблемы с точностью и устойчивостью.'

ЧИТАТЬ →

#распознавание речи29.07.2025

Amazon представила AI-архитектуру, сокращающую время вывода на 30% за счет активации только релевантных нейронов

Исследователи Amazon создали AI-архитектуру, которая сокращает время вывода на 30%, активируя только нейроны, релевантные конкретной задаче, по аналогии с эффективностью человеческого мозга.

ЧИТАТЬ →

#распознавание речи17.07.2025

NVIDIA представляет Canary-Qwen-2.5B: ведущая гибридная модель ASR-LLM с непревзойденной точностью и скоростью

Модель Canary-Qwen-2.5B от NVIDIA устанавливает новый рекорд точности распознавания речи и обеспечивает высокую скорость обработки. Открытая и лицензированная для коммерческого использования, она объединяет транскрипцию и понимание языка в одном решении.

ЧИТАТЬ →

#распознавание речи17.07.2025

Mistral AI представляет Voxtral: лучшие открытые модели распознавания речи с продвинутым пониманием аудио

Mistral AI выпустила Voxtral — современные открытые модели распознавания речи, объединяющие транскрипцию и понимание языка с поддержкой длинного аудиоконтекста и нескольких языков.

ЧИТАТЬ →

#распознавание речи21.05.2025

Мохаммад Абу Шейх: Лидер инноваций суверенного ИИ в регионе MENA

Мохаммад Абу Шейх, CEO CNTXT AI, продвигает суверенный ИИ в регионе MENA, создавая культурные решения и модель Munsit для точного распознавания арабской речи.

ЧИТАТЬ →

#распознавание речи06.05.2025

LLaMA-Omni2: прорыв китайских исследователей в реальном времени с моделями речи на базе больших языковых моделей

Китайские исследователи представили LLaMA-Omni2 — модульную модель речи, обеспечивающую реальное время и минимальную задержку в голосовом взаимодействии с большими языковыми моделями.

ЧИТАТЬ →

#распознавание речи06.05.2025

NVIDIA выпустила Parakeet TDT 0.6B: сверхбыстрая и точная модель распознавания речи с открытым исходным кодом

NVIDIA представила Parakeet TDT 0.6B — открытую модель ASR, которая транскрибирует час аудио за одну секунду и достигает лучших показателей точности, устанавливая новый стандарт в индустрии.

ЧИТАТЬ →